DiDi @NeurIPS 2019 | 千里相聚温哥华，六篇论文解读新方向

滴滴科技合作 2021-09-05

点击上方“蓝色字体”，选择“置顶公众号”

精彩内容，即刻送达

导读

NeurIPS（Conference and Workshop on Neural Information Processing Systems，神经信息处理系统大会）于1986 年在由加州理工学院和贝尔实验室组织的Snowbird 神经网络计算年度闭门论坛上首次提出，最初被设计为研究探索生物和人工神经网络的互补性开放跨学科会议。近年来的NeurIPS 大会一直以机器学习、人工智能和统计学论文为主。是公认的机器学习领域的顶级会议。今年NeurIPS将于12月8日至12月14日在加拿大温哥华举行。

本文将重点对本届大会收录的6篇滴滴论文进行简要介绍，包括半监督学习、多源域自适应的语义分割、基于知识图谱的健康助手机器人、基于最小车队的动态车辆调度、基于轨迹合成的离线强化学习和基于强化学习的共享出行市场用户增量响应建模研究。

基于图的半监督学习下的不可忽略缺失问题

Graph-Based Semi-Supervised Learning with Nonignorable Non-response

基于图的半监督学习是分类任务中非常强大的工具，而在大多数现有文献中，有观测标签的顶点被默认为从顶点集合中随机抽样获得。当是否被观测的概率依赖于未观察到的顶点的隐藏标签时，忽略缺失数据和抽样机制会导致明显的估计偏差，并生成带偏的分类器。

为了解决该问题，滴滴AI Labs和上海财经大学周帆教授合作，提出了一种基于图的联合估计模型GNN。该模型考虑了不可忽略的缺失数据，然后提出了将逆加权估计方程和对缺失数据进行填补相结合的算法。通过对Cora等开源数据集的仿真和实证分析，我们的方法可以有效纠正样本偏误，不管在回归和分类问题的预测结果均优于某些模型。

基于多源域自适应的语义分割

Multi-source Domain Adaptation for Semantic Segmentation

图像的语义分割任务是为图像中的每像素标注一个语义标签，其广泛应用于自动驾驶、场景理解等多个领域。现有主流的基于卷积神经网络的语义分割方法有两个局限性，一方面，深度学习模型训练需要使用像素级标注的大规模样本，这些样本的标注是非常昂贵和耗时的；另一方面，由于存在领域或数据集偏差，现有方法不能很好地将所学知识推广到新的领域和数据集。针对上述问题，本文提出了一种新的多源对抗域聚合网络(MADAN)框架，滴滴地图事业部设计了一个可以以端到端的方式进行训练的新的框架，称为多源对抗式域聚合网络(MADAN)。我们为每个源域生成一个具有动态语义以及像素级别一致性的自适应域，并提出了子域聚合鉴别器（Sub Aggregation Discriminator）和跨域循环鉴别器（Cross domain Cycle Discriminator），以使不同的自适应域更紧密地聚合。最后，在训练分割网络的同时，对聚合域和目标域进行特征层面的对齐。从合成的GTA和SYNTHIA到真实的 Cityscapes和 BDDS数据集的大量实验证明，我们提出的MADAN模型当前比最先进的方法表现得更好。通过MADAN，不同的适应域可以更好地聚合为一个更统一的域。最后，基于聚合域对分割模型进行训练，能够更好地提升分割模型在目标域上的表现。

我们的贡献主要有三个方面：(1)提出了多源语义分割的域适应方法。这是关于多源域自适应的第一个在语义分割任务上的工作。(2)我们设计了一个新的框架MADAN来做Multi-source DA的语义分割。除了特征级 (feature level)对齐外，还考虑了像素级 (pixel level)对齐，即为每个源循环生成一个自适应域，这与动态语义一致性损失是一致的。提出了子域聚合鉴别器和跨域循环鉴别器，以更好地匹配不同的自适应域。(3)我们进行了大量的实验，从合成的GTA和SYNTHIA到真实的Cityscapes和BDDS数据集，结果证明了我们提出的MADAN模型的有效性。

基于知识图谱的健康助手聊天机器人

A Knowledge Graph Based Health Assistant

随着人工智能尤其是自然语言处理技术的飞速发展，聊天机器人已经在各个应用领域针对多种用例进行了设计和实现，如电子商务客服机器人、旅行机票预订机器人等。在医疗保健领域，开发一种智能的个性化健康助手聊天机器人具有重要的意义，它可以帮助用户即时分析症状并辅助用户更加注意身体健康。本文介绍了一种基于医疗知识图谱的多轮对话系统，它作为健康助手聊天机器人，可以根据用户描述的疾病症状提供初步诊断和饮食建议。滴滴AI Labs开发的健康助手机器人能够根据医疗知识图谱推断出与用户症状经常同时出现的关联症状，并通过询问关联症状更准确地了解用户的身体状况。我们的健康助手聊天机器人已于2018年上线，为滴滴出行平台上的司机群体提供了健康咨询服务。

基于最小车队的动态车辆调度：一种深度强化学习方法

Dynamic Vehicle Dispatching Based on Minimum Fleet A Deep Reinforcement Learning Method

由于交通供需之间的不匹配，大城市的车辆共享平台效率有很大提升空间。随着全球定位系统（GPS）和无线通信工具的发展，车辆共享平台可以充分利用空闲车辆来缓解供需之间的差距。针对如何对空驶车辆有效指引以减少空闲率，同时研究城市承运中不同车队规模时的效率，滴滴普惠产品技术部和北京邮电大学王强副教授合作探讨，联合提出了一种基于最小车队的动态车辆调度方法，模拟实验得到了AI Labs的环境支持。首先，在已知车辆共享网络情况下，采用二部图匹配算法获得所需的最小车辆数。然后，为了平衡实时交通中交通供需之间的失配，提出了深度强化学习算法DDQN（Dueling Deep Q-Network ），以有效地使用有限的车辆。DDQN能够估算供需之间复杂的动态关系，因此可以根据DDQN的调度政策将可用车辆调度到需求量大的地方，从而缓解供需之间的差距。最后，我们设计了一个模拟器来训练和测试决斗的深度强化学习算法。仿真结果证明算法在订单响应率和司机计费时长占比方面有显著改进，可以提升司机收入、改善用户体验。

基于轨迹合成的离线强化学习方法

Offline Reinforcement Learning via Trajectory Synthesis

强化学习特别是深度强化学习在近年来取得了非凡的成就，不仅仅应用于游戏领域，在工业制造、商品推荐、量化交易等方面也被广泛应用。然而，目前强化学习存在对样本利用率低，训练精确的策略需要大规模样本的挑战。例如，在Atari 这样简单的游戏上通常需要 3 亿次状态采样。为了提高历史静态数据在强化学习中的利用率，滴滴AI Labs提出一种离线强化学习方法offDQN方法。区别于行为克隆方法和逆强化学习方法，由于历史数据所对应的策略并非最优策略，offDQN通过挖掘历史信息，离线合成最优决策轨迹，进而对强化学习价值函数进行进行改进。通过滴滴大数据平台A/B 测试，offDQN、DQN和人工策略相比，OffDQN在多项数据指标表现最优。

基于强化学习的共享出行市场用户增量响应建模研究

Reinforcement Learning for Uplift Modeling in Ridesharing Market

Uplift Modeling 旨在建模对用户进行(价格产品)刺激所带来的用户行为增量影响。在这项工作中，滴滴网约车策略与技术部从一个全新的角度来建模定义这个问题，并将其表述为马尔可夫决策过程(MDP)。Uplift Modeling问题的主要关注点是用户在刺激下的响应和自然响应间的差异，即对特定刺激的提升响应。传统的机器学习方法已经在这个问题中应用，但相关工作中普遍存在着两个问题限制了这些方法的表现。

问题一是：Uplift Modeling缺乏无偏的评估指标，一些现有指标(如QiNi系数和Uplift curve)仅适用于单变量的二元响应；缺乏合理的评估指标导致很难用离线数据集分析并模拟真实场景。问题二是：在Uplift Modeling问题中，真实场景中我们仅能得到自然响应和提升响应二者中的一个，这意味着对刺激动作提升响应的准确标签是天然缺失的。在本文中我们提出了一个新的Uplift Modeling度量指标，用于多种刺激动作和一般响应类型(二类/离散/连续), 它是Uplift Modeling的反向倾向评分(IPS)的一种变体，我们证明了这是一个无偏估计的Uplift Response；然后我们将Uplift Modeling重定义为马尔可夫决策过程(MDP), 并采用策略梯度方法进行求解；这种深度强化学习方法可以自动从数据中学习表示，不需要监督学习的明确标签，只使用短期和长期的反馈来指导在特定供需环境中哪些刺激效果是更好的。我们在真实场景数据上进行了实验，结果表明我们的方法比以前的方法有明显的改进。

通知

后续，小编会通过DiDi @NeurIPS 2019系列解读和您分享更多精彩内容！

敬请关注！

NeurIPS 2019 | 滴滴D²-City目标检测迁移学习挑战赛再次启动

DiDi@IJCAI 2019 | 相约50周年盛会，澳门唱响AI之歌（预告篇）

机器学习顶级学术主题乐园--滴滴 @ NIPS 2017

编辑 | 贺贺

阅读原文，

查看关于NeurIPS 2019更多信息！

：，。视频小程序赞，轻点两下取消赞在看，轻点两下取消在看

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

卖房卖地干阿哲！哲旭混战人气票，干爆炸！宝哥嘲“反思哥”！易阳截流舞帝一哥，喊话阿哲！

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

DiDi @NeurIPS 2019 | 千里相聚温哥华，六篇论文解读新方向

查看关于NeurIPS 2019更多信息！

您可能也对以下帖子感兴趣

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

卖房卖地干阿哲！哲旭混战人气票，干爆炸！宝哥嘲“反思哥”！易阳截流舞帝一哥，喊话阿哲！

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

生成图片，分享到微信朋友圈

DiDi @NeurIPS 2019 | 千里相聚温哥华，六篇论文解读新方向

查看关于NeurIPS 2019更多信息！

您可能也对以下帖子感兴趣

你手放哪呢，出生啊